Detrás del Marcador: Análisis de Cómo el Factor de Localía y el Ranking FIFA Impactan en las Victorias Futbolísticas

Tabla de contenidos

  1. Introducción
  2. Inicialización
  3. Preprocesamiento de datos
    3.1. Enriquecimiento de los datos
    3.2. Descripción de los datos
  4. Análisis exploratorio de datos
    4.1. ¿Existe tal cosa como la ventaja del equipo local?
    4.2. ¿Qué tan inesperado es que un equipo de bajo ranking gane a un equipo de alto ranking?
  5. Modelos de predicción: ¿Es posible construir un mejor predictor para ganar un partido que el ranking FIFA?
    5.1. Definimos la data para entrenar nuestros modelos
    5.2. Evaluamos el modelo simple basado en el Ranking FIFA
    5.3. Definimos el set de entrenamiento y de prueba
    5.4. Entrenamos y evaluamos nuestro modelo de Regresión Logística Multinomial
  6. Conclusiones
  7. Próximos pasos
  8. Apéndices
    8.1. Apéndice A: Definiciones

1. Introducción

En el mundo del fúltbol, cada partido es un enfrentamiento único en el que equipos de distintas procedencias y calibres se desafían en busca de la victoria. Detrás de cada resultado hay una serie de factores que influyen en el desenlace, desde la destreza individual de los jugadores hasta las estrategias de juego adoptadas por los entrenadores. Entre estos factores, dos han capturado la atención de la comunidad futbolística y de los analistas de datos por igual: el factor de jugar como local y el posicionamiento en el ranking FIFA.

El propósito de este proyecto es sumergirse en el análisis de datos para desentrañar la relación entre el desempeño de un equipo en el contexto de su localía y su posición en el ranking FIFA, y cómo estas variables impactan en su probabilidad de victoria. A lo largo de las décadas, se ha especulado ampliamente acerca de si el factor de jugar en casa y la clasificación en el ranking FIFA realmente afectan los resultados de los partidos. Este análisis busca aportar claridad a estas cuestiones, explorando cómo estos factores se entrelazan y contribuyen a las victorias en el deporte más popular del mundo.

Para lograr este objetivo, se examinarán datos detallados de partidos internacionales de fútbol, abarcando un período que va desde 1993 hasta 2022. Estos datos proporcionan una ventana a una amplia variedad de escenarios y situaciones de juego a nivel global, permitiendo un análisis completo y en profundidad. Mediante la aplicación de técnicas estadísticas y herramientas de visualización, se pretende identificar patrones, tendencias y relaciones significativas entre el factor de jugar como local, la posición en el ranking FIFA y el resultado final del partido. Finalmente, se utilizará un modelo de regresión logística para predecir la probabilidad de victoria de un equipo en función de su posición en el ranking FIFA, su condición de local o visitante y otras variables.

2. Inicialización

3. Preprocesamiento de datos

Observamos un dataset que junta columnas con variables de tipo categórico y numérico. Se pueden realizar algunas transformaciones con el objeto de mejorar la calidad de los datos. Particularmente:

3.1. Enriquecimiento de los datos

3.2. Descripción de los datos

Nuestro dataset queda de la siguiente manera:

Donde:

Nota: Si el enfretamiento es en el país de uno de los equipos, la variable locacion_neutral será False y el equipo A corresponderá al equipo que juega de local

Obtenemos al final un dataset sin valores ausentes y con la información que necesitamos para el análisis.

4. Análisis exploratorio de datos

Observamos que:

4.1. ¿Existe tal cosa como la ventaja del equipo local?

Hay una creencia de que los equipos cuando juegan de local tienen una ventaja con respecto al equipo de visita. Vamos a indagar en este fenómeno analizando la información que disponemos. Para esto, compararemos el ratio de victorias históricas de los equipos locales (Equipo A) en enfrentamientos jugados en locaciones no neutrales y los compararemos con los enfrentamientos jugados en locaciones neutrales. Para esto, usaremos la columna locacion_neutral.

Como es de esperar, los equipos al jugar de local históricamente acumulan una mayor cantidad de victorias en relación a los resultados de empate y derrota. Este ratio es mayor que las victorias en partidos de locación neutral. Este resultado sugiere que jugar de local mejora la probabilidad de victoria de un equipo mientras que reduce su probabilidad de empate o derrota.

4.2. ¿Qué tan inesperado es que un equipo de bajo ranking gane a un equipo de alto ranking?

A continuacion se intentará cuantificar cuál es la probabilidad de que un equipo de bajo ranking FIFA sea capaz de ganarle a un equipo de alto ranking FIFA. Para esto utilizaremos la columna diferencia_fifa_rank_app la cual registra rangos de ventajas (o desventajas) visto desde la perspectiva del equipo A.

Observamos una distribución que se aproxima a la normal con un centro cercano a cero. Esto nos indica que, por lo general, los equipos enfrentados suelen estar equilibrados (poca diferencia en su posición del ranking) y en pocas ocasiones hay diferencias notables.

En la tabla de a continuación se muestra un resumen con la información histórica de Victorias, Empates y Derrotas (desde la perspectiva del equipo A) en función de las diferencias de Ranking.

Se grafican los datos de forma que si la diferencia es menor a 0, el equipo se encuentra en desventaja por ser de un ranking menor a su adversario, y si la diferencia es mayor a 0, el equipo se encuentra en ventaja por ser de un ranking mayor a su adversario. Al haber obtenido la proporción de victorias y empates de los equipos jugando de local y de visita frente a su total de partidos, se interpretan los resultados en términos de probabilidad.

Por lo tanto, a partir del gráfico se puede observar lo siguiente:

En general, se puede decir que la localía otorga una ventaja importante en los partidos, contribuyendo a aumentar las probabilidades de victoria cuando el equipo se encuentra equilibrado o en ventaja frente a su adversario o a aumentar la probabilidad de empate cuando el equipo se encuentra en desventaja frente a su adversario. De manera similar, se puede decir que siempre existirá una mayor probabilidad de victoria de un equipo al jugar de local que al jugar de visitante, independientemente de la ventaja o desventaja que tenga frente a su adversario.

5. Modelos de predicción: ¿Es posible construir un mejor predictor para ganar un partido que el ranking FIFA?

Basándonos solamente en el ranking FIFA, podemos intentar predecir el resultado de un enfrentamiento comparando la diferencia de rankings, en donde:

Claramente, este criterio es muy simple y deja de lado muchas variables importantes, como por ejemplo, si el equipo juega de local o no, dónde y cuándo se juega, qué tipo de torneo es, los fifa points, etc.

Es por esto que intentaremos crear un modelo de predicción que sea considere todas estas variables y evaluaremos su desempeño comparándolo con el criterio descrito anteriormente.

5.1. Definimos la data para entrenar nuestros modelos

Ahora que tenemos nuestras variables de interés, es momento de definir las variables característica y la variable objetivo. En este caso, nuestra variable objetivo (a predecir) será resultado_A_num la cual:

El resto de variables serán las variables característica. Dado que la variable objetivo puede asumir 3 valores diferentes, nuestro modelo de predicción será un modelo de clasificación.

5.2. Evaluamos el modelo simple basado en el Ranking FIFA

A continuación construiremos un modelo simple que considere los criterios definidos arriba y evaluaremos su desempeño.

5.3. Definimos el set de entrenamiento y de prueba

Para entrenar nuestro modelo, separaremos los 23921 datos en dos. Un dataset con el 80% de los datos, el cual utilizaremos ara enseñarle a nuestro modelo a predecir (entrenamiento), mientras que el 20% restante será utilizado para testear el desempeño de nuestro modelo. Se hace esta manera para asegurarnos que nuestro modelo este analizando información que nunca antes ha visto. Finalmente, para evaluar el desempeño de nuestro modelo, compararemos las predicciones del modelo con los resultados reales y contabilizaremos el porcentaje de aciertos.

5.4. Entrenamos y evaluamos nuestro modelo de Regresión Logística Multinomial

Si bien, un 55.3% de aciertos no puede parecer mucho, recordemos que las variables a predecir son 3 (Gana, Pierde, Empata) y que la probabilidades de acertar al azar son de un 33%. Además, el desempeño de nuestro modelo está muy por sobre el modelo simple basado en el ranking FIFA (21.8% de aciertos).

Finalmente, analizando el desempeño de nuestro modelo en detalle, obtenemos los siguiente resultados:

Previamente habíamos encontrado que, basándonos en la información histórica, los equipos cuando juegan de local tienen una mayor probabilidad de victoria que al jugar de visitante. Por lo tanto, cabe destacar que este resultado es consistente con el desempeño de nuestro modelo, el cual asigna una mayor probabilidad de victoria al equipo A (local) que al equipo B (visitante). Nuevamente, el factor de localía parece tener un peso importante en el resultado de los partidos.

6. Conclusiones

7. Próximos pasos

Con el objetivo de mejorar o complementar los resultados obtenidos, se sugieren a continuación una serie de pasos a seguir:

8. Apéndices

8.1. Apéndice A: Definiciones

FIFA Rank (Ranking FIFA): El "FIFA rank" o ranking FIFA es una clasificación numérica de los equipos nacionales de fútbol de todo el mundo. Se basa en los puntos acumulados por los equipos en el sistema de clasificación de la FIFA. Los equipos se ordenan en función de la cantidad de puntos que tienen, de mayor a menor. El equipo con más puntos tiene el rango más alto. El ranking FIFA se actualiza mensualmente y se utiliza para determinar las cabezas de serie en los sorteos de torneos internacionales y para evaluar la posición relativa de los equipos en el escenario mundial.

FIFA Points (Puntos FIFA): Los "FIFA points" se refieren a la cantidad acumulada de puntos que un equipo ha ganado en el sistema de clasificación de la FIFA. Estos puntos se otorgan en función del rendimiento del equipo en partidos internacionales. Los factores que influyen en la cantidad de puntos que un equipo gana incluyen el resultado del partido, la importancia del partido, el nivel del equipo contrario y el tipo de competición. Estos puntos se suman a lo largo del tiempo a medida que el equipo juega más partidos y se utilizan para determinar su posición en el ranking de la FIFA.